Revue de Claude Opus 4.7 : Une mise à niveau défectueuse ou un désastre total ?

En bref / Points clés

Anthropic vient de lancer Claude Opus 4.7, promettant des capacités d'IA de niveau divin. Mais des experts de premier plan comme Matthew Berman découvrent de graves défauts qui pourraient en faire un énorme pas en arrière.

Le monde de l'IA retient son souffle

Matthew Berman, éminent expert en IA et fondateur de Forward Future, n'a pas mâché ses mots. Sa vidéo YouTube, « Seeing if Opus 4.7 sucks [LIVE] », a immédiatement donné un ton provocateur, remettant en question le récit par défaut du progrès en intelligence artificielle. Cette approche directe et sans concession a captivé l'attention d'une communauté déjà pleine d'anticipation pour le dernier modèle phare d'Anthropic, Claude Opus 4.7. Le titre de Berman à lui seul signalait une analyse critique approfondie, allant au-delà du battage médiatique marketing pour examiner les performances réelles, faisant écho au sentiment de ses ressources comme « The Subtle Art of Not Being Replaced » et « Humanity's Last Prompt Engineering Guide ».

Anthropic a positionné Claude Opus 4.7 comme son modèle Opus le plus performant à ce jour, une puissance de raisonnement hybride dotée d'une impressionnante fenêtre de contexte de 1M. Lancé le 16 avril 2026, ce modèle est arrivé avec des attentes significatives. L'industrie recherchait un bond définitif dans les capacités de l'IA, en particulier dans des domaines tels que : - Agentic coding - Advanced vision processing - Complex multi-step reasoning

La communauté de l'IA, des développeurs individuels aux grands utilisateurs d'entreprise, attendait avec impatience Opus 4.7. Sa large disponibilité sur les principales plateformes promettait une intégration généralisée : - Utilisateurs de Claude Pro, Max, Team et Enterprise - Développeurs via l'API Claude Platform - Intégrations sur Amazon Bedrock, Vertex AI de Google Cloud et Microsoft Foundry - Déploiement sur GitHub Copilot

Les développeurs espéraient un outil robuste pour s'attaquer à des projets plus ambitieux, tandis que les entreprises recherchaient des gains d'efficacité et des solutions innovantes, justifiant le prix de base du modèle de 5 $ par million d'input tokens et de 25 $ par million d'output tokens. Cependant, un tokenizer mis à jour pourrait augmenter le coût réel jusqu'à 35 % pour la même entrée, ajoutant une autre couche de surveillance.

Sous la surface des affirmations officielles et de l'enthousiasme initial, une question cruciale mijotait : Opus 4.7 a-t-il tenu sa promesse, ou Anthropic a-t-il trébuché ? Malgré les améliorations vantées, des rumeurs et des analyses d'experts, y compris celles de Berman, suggéraient des régressions potentielles. Des rapports ont indiqué une diminution significative des performances de récupération de contexte long, le MRCR benchmark ayant chuté de 78,3 % dans Opus 4.6. La communauté se préparait à une réponse : s'agissait-il d'un bond en avant innovant pour Anthropic, ou d'une erreur significative qui pourrait redéfinir les attentes pour les modèles d'IA de pointe ?

Ce qu'Anthropic a promis : une nouvelle frontière

Anthropic a officiellement dévoilé Claude Opus 4.7 le 16 avril 2026, le positionnant comme son modèle le plus performant et le plus ambitieux à ce jour. La société a présenté cette nouvelle itération comme un bond en avant significatif, construit sur trois piliers fondamentaux : un agentic coding amélioré, des capacités de vision avancées et un raisonnement robuste de niveau entreprise. Cette version visait à redéfinir les limites de ce que l'IA autonome pouvait accomplir, fixant une barre haute pour ses attentes de performance.

Les affirmations d'Anthropic concernant Opus 4.7 étaient particulièrement audacieuses, se concentrant sur sa capacité à relever des défis sophistiqués et multi-étapes. Ils ont affirmé que le modèle pouvait construire de manière autonome des logiciels complexes à partir d'instructions de haut niveau, un pas significatif vers des agents AI plus indépendants. De plus, sa vision avancée permettait l'analyse de documents haute résolution et de données visuelles complexes, facilitant une compréhension plus approfondie et l'extraction d'informations à partir de divers formats. La 1M context window du modèle a soutenu ces capacités, lui permettant de traiter et de raisonner sur de vastes quantités d'informations.

Une large disponibilité a marqué une autre étape stratégique pour Anthropic. Opus 4.7 est devenu généralement accessible à un large éventail d'utilisateurs, y compris les abonnés Claude Pro, Max, Team et Enterprise. Pour les développeurs et les grandes organisations, Anthropic a assuré une intégration transparente via plusieurs plateformes : - The Claude Platform API - Amazon Bedrock - Google Cloud's Vertex AI - Microsoft Foundry Cette stratégie de déploiement généralisée a souligné l'intention d'Anthropic d'intégrer profondément Opus 4.7 dans l'écosystème AI existant, en en faisant un outil omniprésent pour le développement et le déploiement. Son déploiement sur GitHub Copilot a encore solidifié sa présence dans le flux de travail des développeurs.

Le langage marketing d'Anthropic pour Opus 4.7 était sans équivoque assertif, positionnant le modèle directement face aux principaux concurrents dans l'espace LLM. L'entreprise a souligné la performance supérieure d'Opus 4.7 dans les tâches complexes et multi-modales et son appellation "enterprise-grade", signalant son adéquation aux applications commerciales critiques nécessitant une fiabilité et une précision élevées. Ce message stratégique visait à capter le marché des entreprises à forte valeur ajoutée, en mettant l'accent sur la capacité du modèle à résoudre des problèmes complexes et à un déploiement robuste.

La structure tarifaire d'Opus 4.7 reflétait son positionnement premium. Anthropic a fixé le coût de base à 5 $ par million de tokens d'entrée et 25 $ par million de tokens de sortie. Cependant, un détail crucial souvent négligé était l'impact d'un tokenizer mis à jour, qui pouvait augmenter le coût effectif jusqu'à 35 % pour le traitement du même volume d'entrée. Cette considération de coût est devenue un facteur critique pour les organisations planifiant des déploiements à grande échelle, ajoutant une couche supplémentaire à la proposition de valeur globale du modèle.

L'éléphant dans la pièce : Échec du contexte

Opus 4.7 d'Anthropic fait face à sa régression la plus alarmante en matière de long-context retrieval, une capacité fondamentale pour toute IA avancée. Les benchmarks révèlent une chute catastrophique du Mean Reciprocal Rank (MRCR), passant de 78,3 % dans la version précédente Opus 4.6 à un misérable 32,2 %. Il ne s'agit pas d'une légère baisse de performance ; cela représente une grave dégradation de la capacité du modèle à traiter et à rappeler avec précision des informations provenant d'entrées étendues et multi-pages.

Le MRCR sert de métrique critique, quantifiant l'efficacité avec laquelle un modèle d'IA peut localiser une "aiguille" d'information spécifique au sein d'une vaste "botte de foin" de texte. Un MRCR plus élevé indique que le modèle identifie rapidement la bonne réponse, souvent parmi ses premières suggestions, ce qui signifie une compréhension contextuelle robuste. La chute précipitée à 32,2 % signifie qu'Opus 4.7 échoue désormais fréquemment à identifier des détails cruciaux ou les enfouit si profondément dans sa sortie qu'ils deviennent pratiquement inaccessibles. Cela compromet gravement l'utilité de sa vaste 1M context window, la rendant peu fiable pour l'analyse de documents complexes.

Cet échec profond dans les scénarios de type needle-in-a-haystack compromet de nombreuses applications de niveau entreprise promues par Anthropic. Considérez les implications pratiques pour les professionnels qui dépendent d'informations précises et opportunes provenant de grands ensembles de données : - Les chercheurs tentant de synthétiser des résultats à partir d'une vaste littérature scientifique, de précédents juridiques ou d'archives historiques. Ils ne peuvent pas faire confiance au modèle pour identifier les faits critiques ou les contre-arguments. - Les développeurs naviguant dans des bases de code tentaculaires, déboguant des systèmes complexes ou interprétant une vaste documentation API. Le modèle pourrait manquer une définition de fonction cruciale ou un message d'erreur obscur. - Les analystes financiers et de marché ayant besoin d'extraire des points de données précis, des tendances ou des clauses réglementaires de rapports complets s'étendant sur des centaines de pages. Oublier un seul chiffre pourrait entraîner des erreurs significatives.

Pour ces utilisateurs, l'incapacité d'Opus 4.7 à rappeler de manière fiable des faits spécifiques le rend significativement moins utile, voire contre-productif. Le modèle « oublie » ou ignore efficacement les informations critiques intégrées dans le contexte même qu'il est censé comprendre, transformant sa grande fenêtre de contexte en un inconvénient plutôt qu'un atout.

Anthropic a présenté Opus 4.7 comme un modèle supérieur, vantant des avancées en matière de codage agentique, de vision avancée et de raisonnement sophistiqué de niveau entreprise. Par conséquent, la dégradation drastique d'une capacité aussi fondamentale soulève des questions immédiates et sérieuses concernant son développement et ses tests. Comment un modèle prétendument plus performant pourrait-il présenter un recul aussi grave et contre-intuitif dans une fonction essentielle, surtout une fonction si vitale pour ses forces annoncées ? Cette lacune flagrante contredit directement le récit de progrès et jette une longue ombre sur la fiabilité globale du modèle. Pour plus de détails sur les fonctionnalités annoncées du modèle, consultez la publication officielle d'Anthropic : Introducing Claude Opus 4.7 - Anthropic.

Le coût que vous n'avez pas vu venir

Opus 4.7 d'Anthropic est arrivé avec un impact financier non annoncé, immédiatement évident pour les développeurs surveillant leur utilisation de l'API. Un nouveau tokenizer, plus verbeux, gonfle significativement le nombre de tokens pour un texte d'entrée identique, augmentant ainsi les coûts réels jusqu'à 35%. Alors que les tarifs publiés restent de 5 $ par million de tokens d'entrée et de 25 $ par million de tokens de sortie, ce changement en coulisses signifie que les développeurs paient considérablement plus pour le même effort de calcul, créant une surtaxe cachée sur chaque interaction.

Exacerbant davantage cette opacité financière, Anthropic a inexplicablement supprimé la transparence autour des thinking tokens. Les itérations précédentes d'Opus fournissaient des informations cruciales sur les étapes de traitement internes, permettant aux développeurs d'anticiper et de gérer la consommation de l'API avec une plus grande précision. Ce manque soudain de visibilité oblige désormais les ingénieurs à opérer dans l'obscurité, entravant leur capacité à prévoir avec précision les dépenses et à optimiser les stratégies complexes de prompt engineering.

Ce nouveau paradigme de coûts modifie fondamentalement la position concurrentielle d'Opus 4.7 par rapport à son prédécesseur, Opus 4.6, et aux modèles rivaux. Opus 4.6 offrait un modèle de coûts plus prévisible, crucial pour les déploiements d'entreprise soucieux de leur budget. Désormais, le modèle phare d'Anthropic présente une proposition moins transparente et potentiellement beaucoup plus coûteuse par rapport aux offres d'OpenAI ou de Google, où les développeurs trouvent souvent des structures de prix plus claires pour des capacités comparables.

La question cruciale demeure : les gains de performance vantés d'Opus 4.7 justifient-ils réellement cette dépense accrue et moins prévisible ? Anthropic met en avant les avancées en agentic coding, advanced vision et enterprise-grade reasoning comme arguments de vente clés. Cependant, ces améliorations doivent maintenant être mises en balance avec un prix effectif plus élevé et la régression alarmante du modèle en matière de long-context retrieval, comme en témoigne le MRCR benchmark. Pour de nombreux développeurs, la proposition de valeur est devenue considérablement plus floue, exigeant une réévaluation attentive de leur stratégie d'investissement en IA.

'Adaptive Thinking' : Une fonctionnalité ou un défaut ?

Anthropic a controversé la suppression du bouton Extended Thinking, une fonctionnalité cruciale qui offrait auparavant aux utilisateurs un contrôle granulaire sur la profondeur de raisonnement de Claude Opus. Ce mécanisme contrôlé par l'utilisateur permettait aux professionnels de guider explicitement le modèle à travers des résolutions de problèmes complexes, garantissant une exhaustivité pour les applications à enjeux élevés. Sa disparition marque un changement significatif dans la manière dont les utilisateurs interagissent avec les processus cognitifs du modèle.

Ce contrôle explicite est remplacé par Adaptive Thinking, une fonctionnalité autonome qui fonctionne sans intervention de l'utilisateur ni transparence. Anthropic offre peu de clarté sur le fonctionnement de ce nouveau système, son activation ou les paramètres qu'il prend en compte. Les utilisateurs sont désormais confrontés à une boîte noire, incapables d'influencer ou même de comprendre les phases délibératives internes du modèle.

Pour les tâches complexes et multi-étapes — comme l'agentic coding ou l'enterprise-grade reasoning — la capacité à diriger le processus de pensée du modèle s'avère indispensable. Perdre ce contrôle utilisateur direct ressemble à une dégradation substantielle, sapant la prévisibilité et la fiabilité essentielles aux flux de travail critiques. Ce changement contraint les utilisateurs à céder leur autonomie à un système opaque et automatisé.

Les retours des utilisateurs ont immédiatement mis en évidence une frustration généralisée face à la perte d'un outil précieux. De nombreux professionnels s'appuyaient sur le bouton 'Extended Thinking' pour éviter les réponses superficielles et garantir une analyse complète. La transition vers un système 'Adaptive Thinking' incontrôlable a laissé beaucoup de personnes se sentir démunies, remettant en question l'engagement d'Anthropic envers l'autonomie des utilisateurs dans les interactions avancées avec l'IA.

Le démontage en direct de Matthew Berman

Le live stream de Matthew Berman, intitulé de manière provocante « Seeing if Opus 4.7 sucks », a offert une évaluation crue et concrète du dernier modèle phare d'Anthropic. En tant que voix influente pour les prompt engineers et les constructeurs d'IA, le démontage de Berman a rapidement mis en évidence des divergences critiques entre les promesses d'Anthropic et les performances réelles d'Opus 4.7. Ses tests rigoureux ont fourni des preuves tangibles des régressions du modèle.

Les démonstrations en direct de Berman ont exposé à plusieurs reprises les difficultés d'Opus 4.7 avec le long-context retrieval, faisant écho à la chute alarmante du MRCR benchmark. Il a présenté des invites spécifiques où le modèle a soit halluciné, soit complètement échoué à se souvenir d'informations antérieures dans la conversation, une tâche que son prédécesseur, Opus 4.6, gérait avec une fiabilité bien supérieure. Cela a directement sapé les affirmations de « enterprise-grade reasoning » pour les opérations complexes et multi-étapes.

Son opinion d'expert a souligné l'utilité pratique diminuée d'Opus 4.7 pour son public. Berman, dont les ressources incluent « Download The Subtle Art of Not Giving a Fck of Not Giving a Fck » et « Download Humanity's Last Prompt Engineering Guide », a souligné qu'une gestion imprévisible du contexte rend le modèle peu fiable pour le développement professionnel de l'IA. Il a fait remarquer que si Anthropic a vanté des améliorations en agentic coding et advanced vision, ces fonctionnalités deviennent largement non pertinentes si le modèle ne peut pas maintenir une compréhension cohérente sur des interactions prolongées.

Les découvertes de Berman résonnent profondément avec le sentiment général des utilisateurs en ligne. De nombreux rapports de la communauté des développeurs corroborent ses observations de performances incohérentes et une dégradation notable des capacités fondamentales. Cette insatisfaction généralisée s'intensifie compte tenu des augmentations de coûts cachées ; le nouveau tokenizer gonfle efficacement les dépenses réelles jusqu'à 35 % pour des entrées identiques, aggravant la frustration liée à l'efficacité réduite.

La suppression du bouton 'Extended Thinking' contrôlé par l'utilisateur a encore exacerbé les préoccupations de Berman, suggérant un manque de transparence et d'autonomie de l'utilisateur. Son démontage en direct a servi d'audit public crucial, solidifiant le récit selon lequel Opus 4.7, malgré ses affirmations officielles, représente un recul significatif pour de nombreuses applications critiques. Pour plus de détails sur les annonces officielles d'Anthropic et comment accéder au modèle, les lecteurs peuvent consulter des ressources comme Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safety | Mashable.

Quand le bon code tourne mal

Des rapports ont rapidement émergé détaillant le Claude Code excessivement prudent d'Opus 4.7, signalant fréquemment des extraits bénins comme étant nuisibles. Cette posture de sécurité agressive a immédiatement soulevé des préoccupations parmi les développeurs qui comptaient sur la promesse d'Anthropic d'un 'agentic coding' avancé. L'hyper-vigilance du modèle s'est avérée plus un obstacle qu'une aide.

Les développeurs ont partagé de nombreux exemples de code simple et inoffensif déclenchant des alertes. Des fonctions Python de base pour la gestion de fichiers, des scripts utilitaires courants, ou même des importations de bibliothèques standard recevaient parfois des avertissements de "malware" ou de "risque de sécurité", bien qu'étant parfaitement sûrs. Cela a créé une expérience utilisateur frustrante et inefficace.

Ce flux constant de faux positifs érode sévèrement la confiance des développeurs en Opus 4.7 en tant qu'assistant de codage fiable. Chaque signalement incorrect exige une révision manuelle et une annulation, perturbant les flux de travail efficaces et annulant les gains de productivité que les outils de codage IA sont censés offrir. Les ingénieurs ne peuvent pas déléguer des tâches en toute confiance à une IA excessivement méfiante.

Pour les utilisateurs en entreprise, où l'intégrité et la sécurité du code sont primordiales, cette non-fiabilité représente un obstacle significatif. L'intégration d'un modèle qui identifie fréquemment à tort du code inoffensif introduit une friction inacceptable et des retards potentiels dans les cycles de développement critiques. Le coût des fausses alertes dépasse rapidement tout avantage perçu.

Les experts de l'industrie spéculent que l'hypersensibilité d'Opus 4.7 découle de mises à jour agressives de ses protocoles d'alignement de sécurité. Anthropic pourrait avoir considérablement renforcé les garde-fous pour prévenir toute utilisation abusive potentielle ou génération de code nuisible, créant par inadvertance un système sujet à une prudence excessive. Ce compromis a privilégié la sécurité au détriment de l'utilité pratique.

Équilibrer une sécurité robuste avec une utilité pratique reste un défi critique pour tous les développeurs de grands modèles linguistiques. Les problèmes de codage d'Opus 4.7 soulignent la mince ligne entre la prévention de sorties véritablement nuisibles et l'étouffement du développement légitime par une approche trop restrictive et prudente. L'implémentation actuelle penche trop lourdement vers cette dernière.

Le démontage en direct de Matthew Berman a probablement observé ces difficultés de codage significatives, ajoutant une autre couche à son évaluation provocatrice de "sucks". L'incapacité du modèle à distinguer avec précision le code sûr du code dangereux diminue sa valeur, en particulier pour ses fonctionnalités vantées d'agentic coding, qui exigent confiance et précision.

Étalonnage contre des fantômes

La tactique persistante d'Anthropic de comparer Opus 4.7 à son modèle 'Mythos' non encore publié frustre de plus en plus la communauté de l'IA. Ce concurrent hypothétique, perpétuellement à l'horizon, sert davantage de fantôme marketing que de référence tangible, laissant les utilisateurs et les développeurs s'interroger sur la pertinence de telles comparaisons. La stratégie ressemble moins à une démonstration de prouesses actuelles qu'à une distraction délibérée des défis de performance immédiats et observés d'Opus 4.7.

Au lieu de démontrer les capacités d'Opus 4.7 face à des rivaux réels et redoutables comme GPT-5.4 ou Gemini 1.5 Pro, Anthropic ne cesse de pointer vers un idéal futur et non vérifié. Cette pratique contourne les évaluations cruciales du monde réel, rendant extrêmement difficile pour les entreprises et les développeurs d'évaluer avec précision la véritable position concurrentielle d'Opus 4.7. Les comparaisons objectives avec les leaders du marché disponibles deviennent pratiquement impossibles sans données officielles et transparentes.

Cette approche marketing érode activement la confiance. Se comparer à un modèle fantôme suggère soit une réticence à affronter la concurrence actuelle de front, soit, peut-être, un aveu implicite qu'Opus 4.7 rencontre des difficultés lors de comparaisons directes et objectives. De telles tactiques forcent les adoptants potentiels à spéculer sur la véritable valeur du modèle, plutôt que de s'appuyer sur des métriques de performance vérifiables et directes, cruciales pour les intégrations d'IA à enjeux élevés.

L'industrie exige plus de transparence et de responsabilité. Anthropic doit s'orienter vers une comparaison ouverte d'Opus 4.7 avec les leaders du marché existants, en fournissant des données concrètes et comparables qui éclairent véritablement les décisions d'achat et de développement. Dépasser le mirage 'Mythos' est essentiel pour restaurer la confiance de la communauté et favoriser un environnement d'innovation honnête et compétitive, où les modèles sont jugés sur ce qu'ils livrent aujourd'hui, et non sur ce qu'ils promettent demain.

Le Verdict : Opus 4.7 est-il un pas en arrière ?

Opus 4.7 d'Anthropic présente une dichotomie frappante : des avancées annoncées face à des régressions documentées. Alors qu'Anthropic a vanté des progrès significatifs en matière de codage agentique, de vision avancée et de raisonnement de niveau entreprise, le modèle a également introduit des revers critiques qui remettent en question son utilité globale. Il ne s'agit pas d'une simple mise à niveau ; c'est une repriorisation complexe des capacités.

Opus 4.7 est-il « nul » ? Pas entièrement, mais il déçoit certainement dans des domaines cruciaux. La chute catastrophique des performances de récupération de contexte long, attestée par le déclin du MRCR benchmark de 78,3 % dans Opus 4.6, représente une régression sévère pour de nombreux utilisateurs. De plus, l'impact du nouveau tokenizer, augmentant les coûts effectifs jusqu'à 35 %, ajoute un fardeau financier inattendu.

La suppression du bouton 'Extended Thinking' contrôlé par l'utilisateur et les rapports selon lesquels Claude Code est excessivement prudent avec les faux positifs compliquent davantage la situation. Le démontage en direct de Matthew Berman et les retours de la communauté soulignent constamment ces problèmes, dressant le portrait d'une mise à niveau avec des compromis significatifs.

Les recommandations pour les utilisateurs sont nuancées : - Mettre à niveau : Les développeurs ou les entreprises qui privilégient les nouvelles capacités de codage agentique et de vision avancée, où Opus 4.7 montre des gains démontrables, devraient l'envisager. - Attendre : Les utilisateurs fortement dépendants de la récupération de contexte long ou ceux sensibles à l'augmentation des coûts effectifs devraient s'abstenir. - Éviter : Si votre flux de travail dépend de la fonction 'Extended Thinking' ou si vos applications sont gravement affectées par la prudence signalée de Claude Code, Opus 4.7 pourrait être une régression.

Les progrès en AI sont rarement linéaires. Opus 4.7 souligne cette réalité, démontrant que de nouvelles fonctionnalités peuvent apparaître aux côtés de régressions significatives, et parfois inexplicables. Bien qu'Opus 4.7 soit généralement disponible sur diverses plateformes, y compris Claude Opus 4.7 on Vertex AI | Google Cloud Blog, les utilisateurs doivent évaluer attentivement ses forces spécifiques par rapport à ses faiblesses considérables avant le déploiement. Le benchmarking continu d'Anthropic par rapport à leur modèle 'Mythos' non encore publié ne fait qu'ajouter à la lassitude et à l'incertitude de la communauté concernant l'état réel de leurs offres actuelles.

Anthropic à la croisée des chemins

Anthropic évolue dans un paysage de l'AI hyper-compétitif, où des rivaux comme OpenAI et Google imposent des cycles de publication agressifs. Cet environnement intense amplifie chaque faux pas, exerçant une pression immense sur l'entreprise pour innover tout en maintenant la fiabilité et la confiance des utilisateurs – un équilibre délicat qu'Opus 4.7 n'a manifestement pas réussi à trouver, risquant ainsi sa position sur un marché âprement disputé.

Les gains promis en codage agentique et en vision avancée sont arrivés en même temps que des régressions alarmantes impactant les fonctionnalités de base. La chute catastrophique du MRCR benchmark pour la récupération de contexte long a directement contredit le discours de progrès. De plus, un nouveau tokenizer a effectivement augmenté les coûts opérationnels jusqu'à 35 % pour la même entrée, créant une charge financière cachée pour les utilisateurs professionnels et les développeurs.

La suppression du bouton "Extended Thinking" contrôlé par l'utilisateur, remplacé par la fonctionnalité opaque "Adaptive Thinking", a encore érodé la confiance des utilisateurs. Ce changement a limité le contrôle granulaire et a contribué aux rapports selon lesquels Claude Code sur Opus 4.7 était excessivement prudent et sujet aux faux positifs. La lassitude de la communauté face au benchmarking constant d'Anthropic par rapport à leur modèle "Mythos" non encore publié souligne également une demande croissante de transparence plutôt que de comparaisons ambitieuses.

Pour regagner la confiance, Anthropic doit prioriser la stabilité et la transparence. Il est primordial de s'attaquer aux régressions fondamentales, en particulier l'échec de contexte et les augmentations de coûts cachées. Rétablir le contrôle de l'utilisateur sur le comportement du modèle et fournir des feuilles de route claires et exploitables, plutôt que des benchmarks vagues, signalerait un engagement renouvelé envers sa base d'utilisateurs. Les futures versions devront démontrer des améliorations tangibles dans des scénarios réels.

Cet épisode sert de leçon sévère à l'ensemble de l'industrie de l'AI. Le battage médiatique et les benchmarks internes ont peu de valeur lorsque les performances réelles, démontrables et constantes, faiblissent. La transparence dans le développement, une communication honnête sur les limitations et une concentration implacable sur la fiabilité doivent précéder les grandes déclarations sur les capacités futures. Le titre provocateur de Matthew Berman, "Seeing if Opus 4.7 sucks", s'est malheureusement avéré prémonitoire, soulignant la demande urgente de la communauté pour une vérité sans fard.

Questions Fréquemment Posées

Quelles sont les principales nouvelles fonctionnalités de Claude Opus 4.7 ?

Anthropic affirme qu'Opus 4.7 offre des performances améliorées en codage agentique, des capacités de vision nettement supérieures pour l'analyse de documents complexes, et un raisonnement amélioré pour les tâches professionnelles comme l'analyse financière.

Quelles sont les principales critiques d'Opus 4.7 ?

Les principales critiques incluent une chute sévère des performances de récupération de contexte long, un nouveau tokenizer qui augmente les coûts jusqu'à 35 %, la suppression des contrôles utilisateur comme 'Extended Thinking', et un interpréteur de code excessivement sensible.

Devrais-je passer à Claude Opus 4.7 ?

Cela dépend de votre cas d'utilisation. Si vous avez besoin d'une vision de pointe ou de codage agentique, cela peut valoir la peine d'être testé. Cependant, si vous comptez sur la récupération de contexte long ou des coûts prévisibles, vous voudrez peut-être vous en tenir à une version précédente ou à un concurrent pour l'instant.

Qui est Matthew Berman ?

Matthew Berman est un expert en IA et le créateur de la marque 'Forward Future'. Il est connu pour fournir des critiques critiques, sans battage médiatique, et des guides pratiques sur les nouveaux outils et modèles d'IA.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Le pari d'Anthropic sur l'IA : Opus 4.7 est-il nul ?