Anthropic explique pourquoi Claude est devenu moins intelligent pour les développeurs

💡

En bref / Points clés

Anthropic vient d'avouer avoir rendu son modèle d'IA, Claude, moins performant pour les développeurs. Découvrez les trois erreurs critiques qu'ils ont commises et ce que cela signifie pour l'avenir de l'IA.

La campagne de murmures devient un rugissement

Une vague de plaintes de développeurs a récemment inondé les plateformes de médias sociaux comme X et Reddit, détaillant un net déclin des capacités de codage de Claude. Les programmeurs s'appuyant sur l'assistant IA ont signalé une baisse notable de la qualité de ses résultats, suscitant une frustration généralisée. Beaucoup ont décrit Claude comme étant soudainement « plus bête », ayant du mal avec des tâches qu'il gérait auparavant avec facilité.

Ce phénomène n'est pas nouveau ; les utilisateurs perçoivent souvent une dégradation, ou « nerfing » de l'IA, des performances du modèle bien avant les reconnaissances officielles. Les développeurs, intimement familiers avec les subtilités de Claude, ont immédiatement senti un changement. Leurs preuves anecdotiques ont brossé un tableau cohérent d'un outil autrefois fiable devenant oublieux et répétitif, en particulier lors de sessions de codage complexes.

Ce malaise collectif s'est transformé en validation lorsqu'Anthropic a finalement publié un post-mortem, confirmant les soupçons généralisés. La frustration de la communauté des développeurs a cédé la place à un sentiment de « nous vous l'avions dit », l'entreprise ayant admis des changements spécifiques ayant eu un impact sur les performances de Claude. Cette transparence, bien que tardive, a fourni des informations cruciales sur les problèmes sous-jacents.

L'explication d'Anthropic a détaillé trois raisons principales de la dégradation de Claude Code: - Une réduction de l'effort de raisonnement par défaut de « élevé » à « moyen » visait à diminuer la latence, sacrifiant par inadvertance les capacités sur les tâches de codage plus difficiles. - Un bug critique a fait que Claude a abandonné son raisonnement antérieur après chaque session inactive, le faisant paraître oublieux et répétitif. - Une invite système modifiée, destinée à réduire la verbosité, a considérablement affecté la qualité du code, forçant Anthropic à annuler le changement.

Crucialement, les problèmes de performance provenaient du « harnais » – l'implémentation spécifique connue sous le nom de Claude Code – plutôt que du modèle Claude lui-même. Cette distinction souligne la fragilité de l'ensemble du pipeline d'IA, où des ajustements apparemment mineurs peuvent avoir des effets profonds. Les critiques ont rapidement remis en question les protocoles de test d'Anthropic, jugeant « insensé » de déployer des changements aussi impactants sans une validation approfondie avant la publication.

La confession sans précédent d'Anthropic

Anthropic a ensuite publié « Une mise à jour sur les récents rapports de qualité de Claude Code », offrant un niveau de franchise sans précédent. Ce billet de blog a directement abordé le chœur croissant de plaintes des développeurs, détaillant les erreurs techniques précises qui ont réellement dégradé les performances de Claude Code. L'admission publique de l'entreprise s'est distinguée comme une étude de cas remarquable en matière de transparence d'entreprise au sein de l'industrie de l'IA souvent opaque, établissant une nouvelle référence en matière de responsabilité.

Le post-mortem a méticuleusement détaillé trois raisons principales derrière le déclin observé des capacités de codage : - Anthropic a avoué avoir modifié l'effort de raisonnement par défaut pour Claude Code de « élevé » à « moyen ». Ce changement, mis en œuvre pour réduire la latence et rendre le modèle plus rapide, a par inadvertance compromis son efficacité sur des tâches de programmation plus complexes nécessitant une réflexion analytique plus approfondie. - Un bug critique est apparu, faisant que Claude a abandonné son ancien raisonnement après chaque session inactive. Ce défaut fondamental a fait que le modèle est apparu oublieux et répétitif, impactant sévèrement les dialogues de codage multi-tours où la rétention du contexte est primordiale. - Une modification de l'invite système, initialement destinée à réduire la verbosité et à rationaliser les sorties, a dégradé de manière inattendue la qualité du code à un point tel qu'Anthropic a dû rapidement annuler le changement, reconnaissant son impact néfaste.

Les membres de la communauté AI et les médias technologiques ont réagi avec un mélange puissant de surprise, de critique et de respect à contrecœur. Alors que certains, comme le créateur de Better Stack, ont exprimé leur choc que de tels changements n'aient pas été adéquatement testés avant le déploiement, beaucoup ont loué la transparence radicale d'Anthropic. Cette franchise offrait un contraste frappant avec la manière dont d'autres géants de la technologie gèrent généralement des problèmes similaires de dégradation des performances avec leurs produits phares.

La plupart des entreprises, en particulier dans l'espace concurrentiel de l'AI, ont souvent recours à des déclarations vagues, attribuent les problèmes à des « modèles d'utilisation évolutifs » ou restent entièrement silencieuses, laissant les utilisateurs spéculer et la frustration s'installer. La décision d'Anthropic de révéler ses erreurs internes a cependant bâti une confiance significative. Elle a validé les frustrations des développeurs plutôt que de les ignorer, reconnaissant l'impact tangible sur leurs flux de travail. Ce niveau d'ouverture établit une nouvelle barre, plus élevée, pour l'honnêteté et la responsabilité dans le paysage en évolution rapide du développement et du déploiement de modèles d'AI.

Erreur n°1 : Sacrifier l'intelligence pour la vitesse

La première erreur reconnue d'Anthropic impliquait un ajustement critique du backend au sein de Claude Code. Les ingénieurs ont modifié l'effort de raisonnement par défaut du modèle, le faisant passer de « élevé » à « moyen ». Ce changement dictait directement les ressources computationnelles et les cycles de traitement internes que Claude consacrait à chaque requête utilisateur, réduisant ainsi sa profondeur analytique.

Le passage à un raisonnement « moyen » signifiait que Claude effectuait moins d'itérations internes et une décomposition de problèmes moins complexe. Bien que l'objectif explicite fût de réduire la latency et d'accélérer les temps de réponse, cette quête de vitesse a involontairement sacrifié la minutie du modèle. Les développeurs ont observé un déclin marqué de la qualité et de l'accuracy du code généré, en particulier dans les scénarios exigeant une pensée logique complexe.

Ce changement opérationnel illustre un compromis classique en ingénierie entre vitesse et performance, un dilemme particulièrement difficile pour les grands modèles de langage. Contrairement

Erreur n°2 : Le « Amnesia Bug »

L'autopsie d'Anthropic a révélé une deuxième erreur critique : le « Amnesia Bug », une faille grave qui affligeait Claude Code. Ce défaut insidieux a fait que l'AI a complètement abandonné son raisonnement précédent et son contexte conversationnel après toute période d'inactivité de l'utilisateur. Chaque fois qu'un développeur interrompait son interaction – même brièvement – Claude Code réinitialisait sa mémoire à court terme, « oubliant » effectivement tout ce qui avait été discuté et forçant un nouveau départ.

Cette perte de mémoire s'est avérée dévastatrice pour la productivité des développeurs et la continuité des flux de travail. Imaginez un programmeur travaillant avec Claude Code pour déboguer un problème complexe impliquant plusieurs fichiers, fournissant un contexte étendu et des détails architecturaux.

Après une brève interruption – peut-être pour exécuter une suite de tests ou consulter la documentation – l'AI revenait dépourvue de tout souvenir. Elle exigeait fréquemment une nouvelle explication du problème, réitérait des solutions déjà rejetées et générait du code ignorant des heures d'instructions précédentes, ce qui entraînait une immense frustration et un gaspillage d'efforts.

L'utilité fondamentale de tout assistant AI avancé repose de manière critique sur sa capacité à maintenir le contexte de conversation et une mémoire persistante. Sans ce fil conducteur de compréhension, une AI ne peut pas s'appuyer de manière incrémentielle sur les interactions précédentes ou offrir des solutions cohérentes et évolutives à des problèmes complexes. L'incapacité de Claude Code à conserver son « ancien raisonnement » après une période d'inactivité a fondamentalement sapé son potentiel collaboratif, le transformant en un chatbot frustrant et sans état.

Erreur n°3 : Le prompt qui a eu l'effet inverse

Le troisième faux pas d'Anthropic a impliqué un changement apparemment anodin au system prompt de Claude Code. Les développeurs ont modifié le prompt dans le but explicite de réduire la verbosité du modèle, espérant obtenir des sorties de code plus concises et directes. Cet ajustement visait à simplifier les interactions et à fournir des réponses sans fioritures conversationnelles inutiles.

Cependant, cette petite modification a créé un effet d'entraînement massif et involontaire, un exemple classique de l'effet papillon en ingénierie de prompt. Une légère altération des instructions initiales a drastiquement modifié le cadre interprétatif du modèle, entraînant une dégradation significative de la qualité et de la justesse du code généré. Le modèle, désormais contraint par le nouveau prompt, a eu du mal avec des structures logiques complexes et des tâches de codage nuancées qu'il gérait auparavant avec facilité.

L'impact sur la qualité du code est devenu si grave qu'Anthropic n'a eu d'autre choix que de rétablir le system prompt à son état d'origine. Ce retour en arrière rapide souligne l'extrême fragilité des systèmes d'IA avancés et affinés. Même des ajustements mineurs aux instructions fondamentales peuvent déstabiliser les performances, révélant les dépendances complexes au sein de ces réseaux neuronaux complexes.

L'expérience d'Anthropic met en lumière l'équilibre délicat requis en ingénierie de prompt. Les développeurs ne peuvent pas simplement supposer que de petits changements produiront des résultats prévisibles ; au lieu de cela, des tests et une validation méticuleux sont cruciaux pour prévenir les régressions imprévues. Cet incident sert de rappel brutal de la facilité avec laquelle la performance soigneusement calibrée d'un modèle d'IA peut se défaire.

Ce n'est pas le modèle, c'est le Harness

Le post-mortem d'Anthropic a révélé une nuance critique : le problème ne provenait pas du modèle de fondation Claude lui-même. Les développeurs ont constaté une dégradation dans Claude Code, une application distincte construite au-dessus de l'IA sous-jacente. Cette distinction est primordiale pour comprendre la source réelle des récents problèmes de performance.

Un « harness » dans le domaine des grands modèles linguistiques représente la couche sophistiquée qui optimise un modèle fondamental pour une tâche spécifique. Il englobe une combinaison soigneusement élaborée de composants conçus pour guider le comportement et la sortie du modèle. Ces éléments sont cruciaux pour adapter les capacités générales d'un LLM à des domaines spécialisés.

Les composants clés d'un harness incluent des system prompts raffinés, qui orientent la persona et les instructions du modèle, et des mécanismes de récupération pour accéder à des informations externes. Les configurations, telles que le niveau par défaut de 'reasoning effort', relèvent également du champ d'application du harness. Les trois erreurs qu'Anthropic a admises — le changement de 'reasoning effort', le bug d'amnésie et le system prompt modifié — étaient toutes des modifications de ce harness de Claude Code, et non du modèle de base.

Considérez la relation comme celle d'une voiture de course haute performance. Le moteur puissant représente le modèle de fondation Claude principal, intrinsèquement capable et robuste. Le harness, alors, est la transmission spécifique, le réglage de la suspension et la configuration aérodynamique méticuleusement configurés pour une piste de course et un style de conduite particuliers. Une transmission mal réglée ou des réglages de suspension incorrects entraveront gravement les performances de la voiture, même si le moteur reste impeccable.

Les faux pas d'Anthropic étaient similaires à l'ajustement du réglage d'une voiture sans tests appropriés, menant directement au déclin observé de la qualité de codage. Le moteur Claude sous-jacent est resté inchangé, mais ses paramètres opérationnels au sein du Claude Code harness ont été compromis. Pour plus de détails sur la façon dont ces configurations impactent les performances des LLM, lisez Mystery solved: Anthropic reveals changes to Claude's harnesses and operating instructions likely caused degradation | VentureBeat.

Cet incident souligne la complexité du déploiement d'une IA avancée. Même des ajustements mineurs au harness opérationnel d'un LLM peuvent altérer considérablement son intelligence et son utilité perçues, soulignant le besoin critique de tests rigoureux avant un déploiement à grande échelle. Les capacités du modèle de base n'ont jamais été remises en question ; c'était son application spécifique qui l'était.

La communauté réagit : « Insensé » qu'ils n'aient pas testé cela

L'indignation de la communauté technologique a rapidement suivi la confession d'Anthropic. La vidéo de Better Stack, « Claude ACTUALLY got dumber... », a mis en évidence ce sentiment, le créateur exprimant son incrédulité qu'Anthropic ait déployé des changements aussi impactants sans tests rigoureux. « C'est un peu fou pour moi qu'ils ne testent pas ces choses avant de publier ces changements », a déclaré la vidéo, capturant la frustration généralisée des développeurs.

Cette critique ciblée souligne une attente fondamentale chez les professionnels : les outils sur lesquels ils comptent pour leur subsistance exigent de la stabilité. Pour les développeurs intégrant l'IA dans des systèmes complexes, une dégradation inattendue des performances d'une API critique comme Claude Code s'avère inacceptable. L'impact immédiat sur la productivité et les délais des projets devient significatif.

L'éthos de la « move fast and break things » longtemps défendu par la Silicon Valley fait l'objet d'un examen croissant lorsqu'il est appliqué aux outils d'IA fondamentaux. Bien que l'itération rapide alimente l'innovation, la livraison de changements non testés qui compromettent les fonctionnalités de base pour les utilisateurs professionnels risque d'éroder la confiance. Un modèle comme Claude Code, conçu pour des tâches de programmation sophistiquées, exige une norme de déploiement différente.

Les faux pas avoués d'Anthropic — changer l'effort de raisonnement par défaut de 'high' à 'medium', introduire un bug d'effacement de mémoire après des sessions inactives, et modifier l'invite système pour réduire la verbosité — représentent des modifications significatives. Chaque changement, s'il avait été testé adéquatement, aurait dû signaler la dégradation des performances qui en a résulté avant la publication. Les problèmes concernaient le « harness », Claude Code, et non le modèle de base, mais l'expérience utilisateur est restée défaillante.

Le développement de tests de régression efficaces pour l'IA générative présente cependant des défis uniques. Contrairement aux logiciels traditionnels où les sorties sont largement déterministes, les modèles d'IA produisent des réponses variées et non exactes. Les métriques d'évaluation automatisées ont souvent du mal à saisir les changements de qualité nuancés dans la génération de code, rendant les évaluations avec intervention humaine essentielles mais gourmandes en ressources.

Malgré ces complexités, la communauté attend une validation robuste pour l'IA de qualité professionnelle. Cet incident souligne la nécessité de méthodologies de test avancées capables d'identifier des régressions subtiles mais critiques dans les systèmes non déterministes. Reconstruire la confiance des développeurs exige plus que des excuses ; cela demande un engagement démontrable envers une assurance qualité rigoureuse.

Le monde à enjeux élevés du déploiement des LLM

L'aveu d'Anthropic va au-delà d'une simple erreur de produit ; il reflète un défi systémique qui touche l'ensemble de l'industrie de l'IA. Les entreprises à la pointe du développement des grands modèles linguistiques font face à une immense pression pour innover, livrant des mises à jour constantes et de nouvelles fonctionnalités afin de maintenir un avantage concurrentiel sur un marché en évolution rapide. Cette course aux armements de l'IA incessante privilégie souvent la vitesse à une validation exhaustive.

De tels cycles de développement rapides conduisent fréquemment au déploiement de changements sans les tests complets en conditions réelles typiques des logiciels traditionnels. Par conséquent, des régressions imprévues peuvent passer inaperçues, impactant directement l'expérience utilisateur et la confiance. L'incident avec Claude Code sert de rappel brutal de ces enjeux élevés.

Évaluer l'impact réel de ces mises à jour continues représente un défi formidable. L'évaluation des performances complexes des LLM, en particulier pour des tâches créatives et nuancées comme le codage, défie les métriques simples et quantifiables. Bien que des benchmarks académiques comme MMLU ou HumanEval offrent des aperçus fondamentaux, ils capturent rarement les scénarios complexes, multi-étapes et dépendants du contexte que les développeurs rencontrent en pratique.

Les tests logiciels traditionnels reposent souvent sur des critères de réussite/échec clairs ou des métriques de performance spécifiques. Pour les LLM, cependant, un modèle 'meilleur' pourrait présenter des améliorations subtiles en matière de créativité ou de cohérence, tandis qu'un modèle 'moins bon' pourrait souffrir d'une cohérence logique réduite ou d'une hallucination accrue, tout cela étant difficile à quantifier objectivement à grande échelle. Cela rend le benchmarking des performances des LLM pour les applications pratiques incroyablement difficile.

Les ajustements d'Anthropic à Claude Code, tels que le changement de l'effort de raisonnement par défaut de 'élevé' à 'moyen' et la modification du prompt système pour la verbosité, illustrent cette complexité. Ces ajustements de configuration apparemment mineurs, destinés à optimiser la latence ou l'expérience utilisateur, ont entraîné des dégradations significatives de la qualité du codage. Détecter de telles régressions nuancées avant un déploiement généralisé nécessite des systèmes d'évaluation sophistiqués et conscients du contexte que l'industrie peine encore à perfectionner.

La réaction "insensée" de la communauté concernant les procédures de test d'Anthropic met en évidence une vulnérabilité plus large de l'industrie. Le développement de cadres d'évaluation robustes et dynamiques, capables de refléter véritablement l'utilité d'un LLM à travers son vaste espace d'application souvent subjectif, reste un problème critique et non résolu pour chaque développeur d'IA majeur.

Leçons de l'erreur d'Anthropic

La récente erreur d'Anthropic avec Claude Code offre une leçon inestimable pour l'ensemble de l'industrie de l'IA. Les équipes de développement doivent comprendre que des ajustements de configuration ou des changements de prompt apparemment mineurs peuvent entraîner une dégradation significative des performances et une frustration des utilisateurs. Le passage de l'effort de raisonnement par défaut de 'élevé' à 'moyen', mis en œuvre pour la vitesse, a considérablement compromis la capacité pour les tâches de codage complexes.

De plus, l'insidieux 'Amnesia Bug' a perturbé la continuité de la session en faisant en sorte que Claude abandonne son ancien raisonnement après chaque session inactive, rendant les interactions oublieuses et répétitives. Même un changement apparemment bénin au system prompt, destiné à réduire la verbosité, a eu un impact significatif sur la qualité du code, entraînant un retour immédiat à la version précédente. Ces trois facteurs illustrent collectivement la profonde fragilité des déploiements de LLM lorsque des changements apparemment mineurs sont effectués.

De manière cruciale, l'incident souligne la distinction entre le modèle de fondation principal et son harnais d'application spécifique. Alors que le modèle Claude sous-jacent est resté robuste, le harnais 'Claude Code' a souffert de ces modifications externes. Cela met en évidence la nécessité de tests rigoureux et multifacettes pour chaque couche d'un produit d'IA, allant au-delà des benchmarks internes pour inclure un feedback utilisateur qualitatif étendu.

Comme l'a justement noté le créateur de la vidéo Better Stack, il semble « insensé » de déployer des changements aussi impactants sans validation complète. Les entreprises ne peuvent pas se fier uniquement aux métriques quantitatives ; les flux de travail et les attentes des développeurs dans le monde réel exigent des tests approfondis avant la production, dans des scénarios divers. Cela inclut l'évaluation des modèles d'interaction à long terme, la gestion des sessions et les manières subtiles dont le comportement d'une IA peut changer au cours d'une session inactive, garantissant la robustesse avant la publication publique.

En fin de compte, le choix d'Anthropic de publier 'An update on recent Claude Code quality reports' (Une mise à jour sur les récents rapports de qualité de Claude Code) témoigne puissamment de la valeur à long terme de la transparence d'entreprise. Admettre ses torts et expliquer clairement les erreurs techniques, même sous un examen public intense, cultive une plus grande confiance que l'obscurcissement. D'autres développeurs d'IA devraient suivre cet exemple, comprenant que l'ouverture, bien que difficile, renforce la résilience et la crédibilité auprès de leur base d'utilisateurs. Pour plus d'informations sur la réaction de l'industrie, lisez Anthropic admits it dumbed down Claude when trying to make it smarter - The Register.

Le chemin de Claude vers la rédemption

Anthropic a agi rapidement pour rectifier les problèmes qui affligeaient Claude Code. Ils ont complètement annulé le changement d'invite système, qui avait considérablement affecté la qualité du code, et ont déployé un correctif critique pour le « bug d'amnésie » qui faisait que Claude perdait son raisonnement après des sessions inactives, le rendant oublieux et répétitif. L'entreprise s'est également engagée à restaurer l'« effort de raisonnement » par défaut de « medium » à « high » pour Claude Code, privilégiant la capacité à la vitesse brute, et a promis des améliorations continues des performances et de la stabilité.

Regagner la confiance d'une communauté de développeurs qui dépend de la précision exige plus que de simples correctifs de bugs. Anthropic doit mettre en œuvre des protocoles de tests pré-déploiement plus robustes, en s'attaquant au manque « insensé » de tests mis en évidence par la vidéo Better Stack. Cela implique probablement des tests A/B internes rigoureux, des déploiements canary pour les changements critiques, et une boucle de feedback interne dédiée aux développeurs pour détecter les régressions avant la publication publique.

Au-delà des processus internes, Anthropic doit reconstruire sa réputation externe de fiabilité. Cela nécessite une transparence accrue grâce à des journaux de modifications détaillés et des feuilles de route publiques pour Claude Code. L'engagement direct avec la communauté des développeurs via des forums dédiés, des briefings techniques ou des programmes bêta ouverts sera crucial pour favoriser une confiance renouvelée et démontrer une approche proactive de l'assurance qualité.

En fin de compte, l'incident Claude souligne un changement pivot dans le paysage de l'IA. Les développeurs ne considèrent plus les assistants de codage IA comme des nouveautés expérimentales ; ces outils sont désormais des composants indispensables de leur flux de travail quotidien, exigeant une fiabilité et une cohérence inébranlables. Le succès futur des fournisseurs de LLM dépend de leur capacité à offrir des performances prévisibles et de haute qualité, favorisant un profond sentiment de confiance avec leur base d'utilisateurs.

Foire aux questions

Pourquoi les performances de codage de Claude se sont-elles dégradées ?

Anthropic a confirmé trois raisons : ils ont abaissé l'« effort de raisonnement » par défaut pour réduire la latence, un bug l'a fait « oublier » les conversations après des périodes d'inactivité, et un changement de « system prompt » conçu pour être moins verbeux a eu un impact négatif sur la qualité du code.

Le modèle Claude de base était-il réellement moins intelligent ?

Non. Selon Anthropic, le modèle Claude de base lui-même n'a pas été dégradé. Les problèmes étaient spécifiques au « Claude Code » harness, qui est le système et les « prompts » enveloppant le modèle pour les tâches de programmation.

Quels changements Anthropic a-t-il apportés pour corriger Claude Code ?

Anthropic a annulé le changement de « system prompt » qui nuisait à la qualité du code et a corrigé le bug qui causait la perte de mémoire. Ils travaillent également à équilibrer la latence et les performances pour le réglage de l'« effort de raisonnement ».

Qu'est-ce qu'un « harness » d'IA ?

Un « harness » d'IA fait référence à l'ensemble spécifique de configurations, de « system prompts » et d'instructions utilisées pour adapter un modèle de base général à une tâche spécifique, comme le codage. C'est la couche d'application au-dessus du modèle de base.

𝕏 in ↑↗

Questions fréquentes

Pourquoi les performances de codage de Claude se sont-elles dégradées ?

Le modèle Claude de base était-il réellement moins intelligent ?

Quels changements Anthropic a-t-il apportés pour corriger Claude Code ?

Qu'est-ce qu'un « harness » d'IA ?

Anthropic admet avoir cassé Claude

En bref / Points clés

La campagne de murmures devient un rugissement

La confession sans précédent d'Anthropic

Erreur n°1 : Sacrifier l'intelligence pour la vitesse

Erreur n°2 : Le « Amnesia Bug »

Erreur n°3 : Le prompt qui a eu l'effet inverse

Ce n'est pas le modèle, c'est le Harness

La communauté réagit : « Insensé » qu'ils n'aient pas testé cela

Le monde à enjeux élevés du déploiement des LLM

Leçons de l'erreur d'Anthropic

Le chemin de Claude vers la rédemption

Foire aux questions

Pourquoi les performances de codage de Claude se sont-elles dégradées ?

Le modèle Claude de base était-il réellement moins intelligent ?

Quels changements Anthropic a-t-il apportés pour corriger Claude Code ?

Qu'est-ce qu'un « harness » d'IA ?

Questions fréquentes

À lire ensuite

La Révolution Silencieuse de l'IA de Google

Cette compétence d'IA réduit les coûts d'API de 65 %

Le péché impardonnable de GitHub

Gardez une longueur d'avance en IA

Anthropic admet avoir cassé Claude

En bref / Points clés

La campagne de murmures devient un rugissement

La confession sans précédent d'Anthropic

Erreur n°1 : Sacrifier l'intelligence pour la vitesse

Erreur n°2 : Le **« Amnesia Bug »**

Erreur n°3 : Le prompt qui a eu l'effet inverse

Ce n'est pas le modèle, c'est le Harness

La communauté réagit : « Insensé » qu'ils n'aient pas testé cela

Le monde à enjeux élevés du déploiement des LLM

Leçons de l'erreur d'Anthropic

Le chemin de Claude vers la rédemption

Foire aux questions

Pourquoi les performances de codage de Claude se sont-elles dégradées ?

Le modèle Claude de base était-il réellement moins intelligent ?

Quels changements Anthropic a-t-il apportés pour corriger Claude Code ?

Qu'est-ce qu'un « harness » d'IA ?

Questions fréquentes

À lire ensuite

La Révolution Silencieuse de l'IA de Google

Cette compétence d'IA réduit les coûts d'API de 65 %

Le péché impardonnable de GitHub

Gardez une longueur d'avance en IA

Erreur n°2 : Le « Amnesia Bug »