En bref / Points clés
La mise à niveau que personne n'avait vue venir
Anthropic a publié de manière inattendue Claude Opus 4.7, son dernier grand modèle linguistique, sans fanfare préalable ni annonce significative. L'arrivée inattendue a immédiatement suscité la confusion et d'intenses spéculations au sein de la communauté de l'IA, en particulier compte tenu de la décision récente et très médiatisée d'Anthropic de ne pas rendre son modèle plus puissant, Mythos, accessible au public.
Le commentateur en IA Matthew Berman a exprimé cette perplexité généralisée. « Opus 4.7 vient de sortir... et je suis confus », a déclaré Berman, soulignant le contraste frappant avec les messages précédents d'Anthropic. Il a remis en question la « ligne rouge » de l'entreprise concernant les capacités des modèles, d'autant plus qu'Opus 4.7 représente un bond substantiel vers la puissance interdite de Mythos.
Quelques semaines auparavant, Anthropic avait déclaré Mythos trop dangereux pour une publication publique, citant ses capacités avancées dans des domaines comme la cybersécurité et le hacking. Mythos Preview, par exemple, a démontré un bond remarquable de 25 points en prouesses de codage sur les benchmarks, un niveau de sophistication qu'Anthropic a jugé trop risqué pour un déploiement généralisé. Cette décision a positionné Mythos comme un « modèle divin » formidable, mais inaccessible.
Les métriques de performance d'Opus 4.7 n'ont fait qu'approfondir le paradoxe. Sur le benchmark critique SWE-bench Pro, Opus 4.7 a obtenu un score de 64,3, un bond massif par rapport aux 53,4 d'Opus 4.6, le plaçant presque à mi-chemin des capacités rapportées de Mythos Preview. Son score SWE-bench Verified de 87 a approché les 94 % de Mythos Preview, et son Agentic Computer Use a atteint 78 %, juste en dessous des 79,6 % de Mythos.
Berman a spéculé si la rétention de Mythos par Anthropic était une stratégie marketing délibérée. L'entreprise elle-même a reconnu les capacités cybernétiques réduites d'Opus 4.7 par rapport à Mythos Preview, déclarant qu'elle avait « expérimenté des efforts pour réduire différentiellement ces capacités » pendant l'entraînement. Cela suggère une publication calculée, mais qui repousse toujours les limites de ce qu'Anthropic considérait auparavant comme sûr. L'apparition soudaine d'un modèle aussi performant, suite à la restriction auto-imposée sur Mythos, a jeté une longue ombre sur la transparence et l'intention stratégique d'Anthropic.
Décrypter le bond de performance 'impossible'
Opus 4.7 est arrivé avec un bond de performance stupéfiant, particulièrement évident dans le benchmark de codage SWE-bench Pro. Son score est passé de 53,4 avec Opus 4.6 à un impressionnant 64,3. Cela représente un gain substantiel de plus de 10 points en une seule itération, un bond sans précédent pour une mise à jour de version mineure.
SWE-bench Pro évalue rigoureusement les capacités d'ingénierie logicielle d'un modèle, mesurant sa maîtrise des tâches de codage complexes sur des dépôts réels. Pour le marché des entreprises, cette métrique est primordiale. Anthropic cible clairement ce segment, comprenant qu'une performance de codage robuste se traduit directement par des applications commerciales critiques et des revenus. Leur stratégie repose sur le développement des meilleurs modèles de codage à vendre aux clients d'entreprise, le financement de capacités GPU supplémentaires et, finalement, la facilitation de l'auto-amélioration récursive de leur IA.
Cette amélioration remarquable pousse Opus 4.7 à presque mi-chemin entre son prédécesseur, Opus 4.6, et les capacités de la version non publiée de Mythos Preview. Mythos, dévoilé la semaine dernière, a démontré un bond stupéfiant de 25 points en matière de prouesses de codage, un niveau jugé trop puissant pour une diffusion publique en raison de ses implications aiguës pour la cybersécurité et le piratage. Le rétrécissement rapide de cet écart à partir d'une « itération à point unique » d'Opus suscite une confusion généralisée parmi les experts en IA.
La décision d'Anthropic de publier Opus 4.7, malgré sa proximité avec les capacités de Mythos, soulève d'importantes questions sur le seuil de sécurité interne de l'entreprise. Les observateurs se demandent désormais ouvertement où Anthropic trace la ligne pour le déploiement public lorsqu'un modèle « moins capable » atteint une performance aussi avancée. Cette décision remet en question les hypothèses précédentes concernant leur engagement envers un déploiement prudent de l'IA, en particulier compte tenu de leurs préoccupations déclarées concernant le potentiel d'utilisation abusive de Mythos.
L'explication officielle de l'entreprise a cité un plan visant à « tester d'abord de nouvelles protections cybernétiques sur des modèles moins capables » avec Opus 4.7. Anthropic a même affirmé avoir expérimenté des efforts pour « réduire différentiellement ces capacités » pendant l'entraînement, notant spécifiquement une légère diminution du benchmark de cybersecurity vulnerability reproduction de 73,8 à 73,1. Cette dégradation intentionnelle, si elle réussit, vise à atténuer les utilisations à haut risque.
Pourtant, cette explication laisse toujours les observateurs s'interroger sur la véritable raison de la rétention de Mythos tout en publiant une version d'Opus qui réduit l'écart de manière si spectaculaire. L'avancement rapide d'Opus 4.7 suggère qu'Anthropic tire le maximum de ses exécutions d'entraînement existantes, repoussant potentiellement les limites de ce qu'ils considéraient auparavant comme sûr pour l'accès public. L'itération continue sur la famille Opus pourrait être un précurseur de futures versions encore plus puissantes, brouillant davantage les lignes de leurs directives de sécurité auto-imposées.
Mythos : Le fantôme dans la machine d'Anthropic
Une nouvelle énigme plane désormais sur la stratégie d'Anthropic : le modèle Mythos. Réputé être un modèle colossal de 10 mille milliards de paramètres, Mythos a été annoncé la semaine dernière comme étant trop puissant pour une diffusion publique. Cette « nouvelle famille de modèles » représente l'exécution d'entraînement de pointe d'Anthropic ; même sous sa forme brute et non optimisée, il surpasse manifestement les dernières itérations d'Opus.
Mythos a démontré un bond stupéfiant de 25 points en capacité de codage sur des benchmarks comme SWE-bench Pro. Ses prouesses sans précédent en ingénierie logicielle se sont directement traduites par une compétence alarmante en cybersécurité et en piratage. Anthropic a jugé ces capacités comme un risque significatif, ce qui a conduit à la décision de suspendre son déploiement public.
Plus précisément, Mythos Preview a obtenu un score de 83,1 en cybersecurity vulnerability reproduction, soit une avance de 10 % sur les 73,1 d'Opus 4.7. Cette différence frappante a souligné la préoccupation d'Anthropic. L'entreprise a cité son initiative Project Glasswing, qui met en évidence les risques inhérents de l'IA avancée en cybersécurité, comme justification de la limitation de la diffusion de Mythos.
Mythos fonctionne non pas comme un produit à venir, mais comme la frontière de capacités interne d'Anthropic. Il établit la norme d'excellence pour ce que leurs modèles d'IA peuvent accomplir, un benchmark que même l'impressionnant Opus 4.7 n'atteint pas. Ce « modèle divin » non publié permet à Anthropic de positionner et de justifier stratégiquement la publication de modèles « inférieurs » mais néanmoins très performants.
Opus 4.7, par exemple, sert de terrain d'essai crucial. Anthropic a explicitement déclaré avoir expérimenté des efforts pour réduire différentiellement les capacités cybernétiques d'Opus 4.7, le lançant avec des garde-fous pour bloquer les utilisations interdites à haut risque. Les informations tirées du déploiement réel d'Opus 4.7 éclaireront leur objectif final de lancer largement les Mythos-class models. Pour plus de détails sur ces avancées, voir Introducing Claude Opus 4.7 - Anthropic.
Le volant d'inertie à un milliard de dollars d'Anthropic
Matthew Berman, un commentateur éminent de l'IA, postule que l'ascension fulgurante et la prouesse stratégique d'Anthropic proviennent d'une stratégie commerciale de « volant d'inertie » méticuleusement conçue. Ce cycle auto-renforçant se concentre exclusivement sur le développement de modèles de codage inégalés, stimulant à la fois l'avancement technologique et la domination du marché. Il représente une approche très ciblée du développement de l'IA et de la pénétration du marché des entreprises.
Le volant d'inertie commence par l'engagement inébranlable d'Anthropic à construire le meilleur modèle de codage au monde. Il ne s'agit pas seulement d'intelligence générale ; c'est une concentration extrême sur les capacités d'ingénierie logicielle avancées, cruciales pour les tâches de développement complexes. Avec un agent de codage supérieur, Anthropic vend ensuite agressivement ses services à de grands clients d'entreprise, où une assistance au codage sophistiquée représente le « meilleur cas d'utilisation en entreprise » pour un impact immédiat et de grande valeur.
Les revenus de ces contrats d'entreprise à forte valeur ajoutée alimentent la prochaine étape critique : l'acquisition de vastes quantités de capacité GPU. Anthropic réinvestit ses gains substantiels directement dans l'infrastructure informatique nécessaire à la formation et à la recherche de modèles avancés. Cet approvisionnement continu garantit qu'ils possèdent la puissance matérielle de pointe requise pour développer l'IA de nouvelle génération, dépassant souvent les concurrents.
Posséder à la fois des GPU de pointe et un modèle de codage déjà supérieur permet l'étape finale et récursive : l'auto-amélioration. Le modèle existant, avec ses prouesses de codage avancées, aide activement à construire, déboguer et affiner ses propres successeurs. Cette boucle d'auto-amélioration récursive permet à Anthropic d'itérer et d'améliorer ses modèles avec une efficacité sans précédent, repoussant continuellement les limites des capacités de l'IA plus rapidement que les méthodes traditionnelles.
Claude Opus 4.7 témoigne directement de l'efficacité de cette stratégie. Son bond stupéfiant dans le benchmark de codage SWE-bench Pro, de 53.4 (Opus 4.6) à 64.3, n'est pas seulement une mise à jour incrémentale mais un produit profond de cet investissement ciblé et de cette optimisation récursive. Ce puissant effet de volant d'inertie soutient la croissance exponentielle des revenus rapportée par Anthropic, leur permettant de dépasser leurs concurrents en tirant parti d'un avantage spécialisé et auto-entretenu dans le paysage férocement compétitif de l'IA.
La ligne rouge de la cybersécurité
Les récents résultats de benchmark d'Anthropic pour Claude Opus 4.7 révèlent une anomalie frappante : une baisse particulière d'une métrique de sécurité critique. Alors que d'autres indicateurs de performance pour Opus 4.7 ont augmenté de manière spectaculaire, le score de Cybersecurity Vulnerability Reproduction a en fait diminué, passant de 73.8 pour Opus 4.6 à 73.1. Cette régression contre-intuitive contraste fortement avec le Mythos Preview non publié, qui affiche un score significativement plus élevé de 83.1 dans la même catégorie, soulignant une divergence délibérée.
Ce déclin spécifique alimente une théorie convaincante : Anthropic pourrait avoir intentionnellement dégradé, ou « nerfé », les capacités de cybersécurité d'Opus 4.7. Matthew Berman, un éminent analyste en IA, avance ce scénario précis, suggérant qu'Anthropic a délibérément réduit les performances ici pour rendre le modèle plus sûr pour la consommation publique. Les actions récentes et les déclarations publiques de l'entreprise confèrent une forte crédibilité à cette hypothèse.
La semaine dernière, Anthropic a dévoilé Project Glasswing, une initiative stratégique axée directement sur les risques et les avantages doubles des modèles d'IA en cybersécurité. Dans le cadre de ce projet, Anthropic a explicitement déclaré son intention de limiter la publication publique de Claude Mythos Preview, citant ses capacités avancées et inégalées. Au lieu de cela, l'entreprise s'est engagée à tester de nouvelles mesures de cybersécurité rigoureuses sur des « modèles moins performants d'abord ».
Opus 4.7, a confirmé Anthropic, est précisément ce « premier modèle de ce type ». L'entreprise a ouvertement admis que les capacités cybernétiques d'Opus 4.7 ne sont « pas aussi avancées que celles de Mythos Preview ». Plus révélateur encore, Anthropic a révélé que « pendant son entraînement, nous avons expérimenté des efforts pour réduire différentiellement ces capacités », confirmant une intervention active et délibérée.
Il ne s'agit pas seulement d'un déclin passif ; c'est une intervention calculée. Anthropic déploie Opus 4.7 avec des protections intégrées, spécifiquement conçues pour « détecter et bloquer automatiquement les requêtes qui indiquent des utilisations de cybersécurité interdites ou à haut risque ». Le déploiement réel de ces modèles délibérément contraints servira de terrain d'apprentissage crucial pour les futures versions.
Les informations tirées de l'interaction publique d'Opus 4.7 et de l'efficacité de ces nouvelles protections éclaireront directement la stratégie d'Anthropic pour une publication plus large et éventuelle de ses puissants Mythos-class models. L'entreprise considère clairement la cybersécurité comme une ligne rouge critique, optant pour une approche prudente et itérative du déploiement public. Cette dégradation calculée souligne un engagement ferme envers le développement responsable de l'IA, priorisant la sécurité et l'expansion contrôlée des capacités plutôt qu'un déploiement immédiat et à spectre complet.
Plus que du simple code : la révolution de la vision
L'arrivée d'Opus 4.7 a signalé plus qu'une simple révolution du codage ; elle a annoncé un bond significatif dans les capacités de vision. Anthropic a spécifiquement souligné ces améliorations substantielles, positionnant le modèle comme un concurrent redoutable en IA multimodale. Cette compréhension visuelle améliorée s'étend au-delà de la simple reconnaissance d'images, permettant une interaction plus riche avec des données visuelles complexes.
La performance du modèle sur des benchmarks comme Document Reasoning souligne de manière spectaculaire cette avancée. Opus 4.7 est passé d'un respectable 57.1 à un incroyable 80.6, laissant les concurrents loin derrière dans les tâches nécessitant une compréhension approfondie d'informations visuelles complexes. Ce bond stupéfiant met en évidence un changement qualitatif dans la manière dont l'IA traite et interprète les mises en page visuelles, les graphiques et le contenu textuel intégré aux images. Il démontre une capacité sophistiquée à extraire et à raisonner sur des informations provenant de documents visuellement denses.
Une telle amélioration profonde de la vision débloque des applications pratiques critiques dans diverses industries. Opus 4.7 peut désormais générer des interfaces utilisateur de meilleure qualité à partir de croquis ou de descriptions textuelles, créer des diapositives de présentation professionnelles avec une esthétique visuelle nuancée, et traiter efficacement des documents visuels complexes comme des rapports financiers, des articles scientifiques ou des plans architecturaux. Sa capacité à « voir » et à interpréter les données visuelles avec une plus grande fidélité transforme la manière dont les entreprises peuvent automatiser les flux de travail de conception, d'extraction de données et de création de contenu, entraînant des gains d'efficacité significatifs.
Cet accent mis sur des capacités de vision robustes s'aligne avec l'orientation stratégique plus large d'Anthropic sur les applications d'entreprise, où le traitement de divers types de données, y compris visuelles, est primordial pour l'intelligence économique et l'efficacité opérationnelle. Pour en savoir plus sur l'approche d'Anthropic en matière de sécurisation du développement de l'IA et de déploiement responsable de modèles puissants, consultez leurs informations sur Project Glasswing: Securing critical software for the AI era - Anthropic. La puissance combinée de ses capacités de codage et de ses modèles de vision positionne Opus 4.7 comme un outil de plus en plus polyvalent pour résoudre des défis complexes du monde réel, étendant son utilité bien au-delà de la pure génération de code.
Gagner au 'Travail Réel' : Le Benchmark GDPVal
Le benchmark GDPVal d'OpenAI sert de critère essentiel pour évaluer la performance pratique d'une IA sur des tâches commerciales réelles. Cette métrique dépasse les capacités théoriques, évaluant directement l'utilité d'un modèle dans des scénarios exigeant des résultats tangibles, une résolution de problèmes complexe et une exécution efficace dans des contextes professionnels. Il représente un indicateur significatif de la valeur immédiate d'une IA, reflétant sa capacité à contribuer à la production économique.
Opus 4.7 a réalisé une performance dominante sur GDPVal, atteignant un impressionnant score Elo de 1753. Cela surpasse confortablement son prédécesseur, Opus 4.6, qui avait enregistré 1619. De manière cruciale, Opus 4.7 a également battu facilement son redoutable rival, GPT-5.4, qui a obtenu 1674, établissant un leadership clair dans cette catégorie vitale.
Ce benchmark constitue l'un des indicateurs les plus importants de la valeur immédiate d'un modèle pour les utilisateurs professionnels et d'entreprise. Un score GDPVal élevé signifie la capacité robuste d'une IA à relever des défis commerciaux complexes, à rationaliser les opérations et à générer des gains de productivité dans divers secteurs. Pour les organisations cherchant à intégrer des solutions d'IA avancées, la performance exceptionnelle d'Opus 4.7 sur GDPVal se traduit directement par une proposition convaincante pour un déploiement immédiat et un retour sur investissement mesurable.
L'accent stratégique d'Anthropic sur la création de modèles puissants et fiables pour l'adoption en entreprise trouve une forte validation dans ces résultats. La capacité constante à surpasser les concurrents sur des benchmarks conçus pour des applications commerciales pratiques consolide la position d'Opus 4.7 en tant qu'outil de premier ordre pour un usage professionnel, de l'analyse financière à l'optimisation opérationnelle. Cette performance renforce l'effet 'flywheel' décrit par Matthew Berman, où des modèles supérieurs génèrent des revenus substantiels qui alimentent un développement de pointe supplémentaire.
Le Coût Caché : Votre Budget de Tokens Diminue
Opus 4.7, malgré toutes ses avancées impressionnantes, introduit un inconvénient pratique significatif pour les utilisateurs : un budget de tokens qui diminue rapidement. L'obtention de ses résultats de pointe exige une dépense de tokens substantiellement plus élevée par rapport aux itérations précédentes. Cela se traduit directement par une augmentation des coûts opérationnels et un épuisement plus rapide des quotas d'utilisateurs, impactant tout le monde, des développeurs individuels aux grands clients d'entreprise.
Un facteur principal derrière cette consommation accrue est le tokenizer mis à jour d'Opus 4.7. L'analyse interne d'Anthropic révèle que ce nouveau composant mappe les invites d'entrée à environ 1,35 fois plus de tokens que le tokenizer d'Opus 4.6. Par conséquent, le même texte d'entrée coûte désormais environ 35 % de plus en nombre brut de tokens, avant même que le modèle ne commence le traitement.
Au-delà du tokenizer, le modèle lui-même semble s'engager dans une 'réflexion' plus approfondie à des niveaux d'effort plus élevés. Opus 4.7 dépense manifestement davantage de ressources computationnelles et génère une séquence plus riche de pensées internes pour atteindre ses performances supérieures sur des tâches complexes et de longue durée. Ce traitement plus profond et plus rigoureux contribue directement à une utilisation plus élevée des tokens pour chaque interaction, reflétant la capacité améliorée du modèle.
Cette augmentation de la demande en tokens arrive à un moment critique pour Anthropic, au milieu de sa crise de GPU bien documentée. L'entreprise a récemment mis en œuvre des réductions notables des quotas d'utilisateurs sur ses modèles Claude, resserrant l'accès à son IA la plus puissante. La consommation de tokens intrinsèquement plus élevée d'Opus 4.7 exacerbe un environnement de ressources déjà tendu, obligeant les utilisateurs à faire des choix plus difficiles.
Anthropic navigue sur une corde raide précaire, équilibrant l'impératif de faire progresser les capacités de l'IA avec les réalités d'une capacité computationnelle finie. Le déploiement d'un modèle plus gourmand en tokens comme Opus 4.7, même avec ses avancées de performance substantielles, signale une priorisation stratégique de la puissance brute. Cette décision, cependant, crée un dilemme important pour les utilisateurs, qui doivent maintenant peser soigneusement les fonctionnalités avancées par rapport à des budgets de plus en plus contraints et une disponibilité réduite. Cela souligne la tension continue dans la mise à l'échelle de l'IA de pointe.
Repensez vos Prompts : Cette IA est Littérale
La mise à niveau vers Claude Opus 4.7 exige une refonte complète de votre stratégie d'ingénierie des prompts. Sa nouvelle précision dans le suivi des instructions rend de nombreux flux de travail hérités, conçus pour des modèles précédents, plus 'souples', effectivement obsolètes. Les utilisateurs constateront qu'Opus 4.7 interprète les commandes avec un littéralisme sans précédent, nécessitant une réévaluation méticuleuse de chaque entrée.
Ce changement nécessite une modification fondamentale de la façon dont vous communiquez avec le modèle. Fini le temps des instructions ambiguës ou de la dépendance à l'IA pour inférer l'intention. Opus 4.7 attend clarté et directivité, exécutant précisément ce qu'il lit, et non ce qu'il pourrait intuiter.
Anthropic elle-même renforce ces nouvelles meilleures pratiques. Les utilisateurs devraient activement éviter les contraintes négatives, telles que "ne faites pas ceci", car le modèle peut les interpréter par inadvertance comme des instructions. De même, l'utilisation de majuscules pour l'emphase ou d'autres anciennes astuces de prompting donnent maintenant souvent des résultats sous-optimaux, voire contre-productifs.
Au lieu de cela, concentrez-vous sur des directives positives et univoques. Réajustez et simplifiez les prompts pour des performances optimales, en vous assurant que chaque instruction sert un objectif clair et direct. Ce changement de paradigme souligne une évolution plus large de l'interaction avec l'IA, où la précision dicte le résultat, comme le soulignent les publications couvrant les dernières avancées des LLM, tel le rapport de VentureBeat sur Anthropic releases Claude Opus 4.7, narrowly retaking lead for most powerful generally available LLM | VentureBeat.
Matthew Berman, connu pour ses analyses, a récemment publié "Humanity's Last Prompt Engineering Guide", qui défend l'approche minimaliste et directe désormais essentielle pour des modèles comme Opus 4.7. Adoptez la simplicité ; c'est la nouvelle sophistication.
Coup de Marketing ou Stratégie de Maître ?
L'ambiguïté stratégique d'Anthropic autour de Mythos entre directement en conflit avec la sortie surprise d'Opus 4.7. Quelques semaines seulement après avoir déclaré Mythos trop puissant pour une diffusion publique, un "énorme pas vers" ses capacités est arrivé, laissant beaucoup de gens s'interroger sur les véritables intentions de l'entreprise.
Les métriques de performance soulignent ce paradoxe. Le score SWE-bench Pro d'Opus 4.7 a bondi de 53,4 à 64,3, le plaçant presque à mi-chemin de la puissance inédite de Mythos Preview. De même, Opus 4.7 a atteint 78 % sur Agentic Computer Use, à peine moins que les 79,6 % de Mythos Preview.
Une théorie convaincante suggère que l'annonce initiale de Mythos était un coup de maître en marketing. En le présentant comme le "modèle divin" inarrêtable, Anthropic s'est positionné comme le seul architecte d'une intelligence sans précédent, presque mythique, s'assurant une part de marché et établissant une suprématie technologique.
Alternativement, Opus 4.7 représente une stratégie de déploiement par phases, véritablement prudente, priorisant la sécurité de l'IA. L'initiative Project Glasswing d'Anthropic a explicitement déclaré qu'ils "testeront d'abord de nouvelles cyber-protections sur des modèles moins performants", désignant Opus 4.7 comme le premier banc d'essai public.
Cette approche est évidente dans le score de reproduction des vulnérabilités de cybersécurité d'Opus 4.7, qui a en fait diminué de 73,8 à 73,1. Anthropic a confirmé avoir "expérimenté des efforts pour réduire différentiellement ces capacités", utilisant Opus 4.7 pour affiner les protections qui détectent et bloquent automatiquement les utilisations de cybersécurité à haut risque.
Les enseignements tirés du déploiement réel d'Opus 4.7 éclaireront directement l'"objectif éventuel d'une large diffusion de modèles de classe Mythos". Cela suggère un processus calculé et itératif pour équilibrer des performances de pointe avec des garde-fous éthiques robustes.
En fin de compte, la vérité englobe probablement les deux récits. Anthropic navigue habilement l'intersection complexe de l'ambition commerciale, du leadership technologique et du développement responsable de l'IA, déployant stratégiquement ses modèles pour maximiser à la fois l'impact sur le marché et la recherche en matière de sécurité.
Foire aux questions
Qu'est-ce que Claude Opus 4.7 ?
Claude Opus 4.7 est le dernier grand modèle linguistique d'Anthropic. Il présente des améliorations significatives en matière de codage, de raisonnement visuel et de suivi des instructions par rapport à son prédécesseur, Opus 4.6, le positionnant comme un concurrent de premier plan face à des modèles comme GPT-5.4.
Pourquoi Anthropic n'a-t-il pas publié le modèle Mythos ?
Anthropic a déclaré que Mythos Preview, un modèle rumeur de 10 billions de paramètres, était 'trop puissant pour être publié publiquement' en raison de ses capacités avancées dans des domaines comme la cybersécurité et le piratage, qui posent des risques significatifs en matière de sécurité et de mauvaise utilisation.
Comment Opus 4.7 se compare-t-il à des concurrents comme GPT-5.4 ?
Opus 4.7 a montré des performances supérieures sur plusieurs benchmarks clés. Sur le benchmark GDPVal, qui teste des tâches de travail réelles, Opus 4.7 a obtenu un score Elo de 1753, surpassant significativement les 1674 de GPT-5.4.
Qu'est-ce qui rend Opus 4.7 tellement meilleur en codage ?
Opus 4.7 montre un bond énorme sur le benchmark de codage SWE-bench Pro, avec un score de 64,3 contre 53,4 pour Opus 4.6. Cela reflète l'orientation stratégique d'Anthropic à créer les meilleurs modèles de codage pour les clients d'entreprise.